2 września 2025Polski

Odkryj moc WebCodecs! Kompleksowy przewodnik po dostępie i manipulacji danymi klatek wideo przy użyciu płaszczyzn VideoFrame. Poznaj formaty pikseli, układ pamięci i praktyczne zastosowania zaawansowanego przetwarzania wideo w przeglądarce.

Płaszczyzny WebCodecs VideoFrame: Dogłębna analiza dostępu do danych klatki wideo

WebCodecs stanowi zmianę paradygmatu w przetwarzaniu mediów internetowych. Zapewnia niskopoziomowy dostęp do podstawowych elementów mediów, umożliwiając programistom tworzenie zaawansowanych aplikacji bezpośrednio w przeglądarce. Jedną z najpotężniejszych funkcji WebCodecs jest obiekt VideoFrame, a w jego obrębie płaszczyzny VideoFrame, które udostępniają surowe dane pikseli klatek wideo. Ten artykuł stanowi kompleksowy przewodnik po zrozumieniu i wykorzystaniu płaszczyzn VideoFrame do zaawansowanej manipulacji wideo.

Zrozumienie obiektu VideoFrame

Zanim zagłębimy się w płaszczyzny, przypomnijmy sobie sam obiekt VideoFrame. VideoFrame reprezentuje pojedynczą klatkę wideo. Zawiera zdekodowane (lub zakodowane) dane wideo wraz z powiązanymi metadanymi, takimi jak znacznik czasu, czas trwania i informacje o formacie. API VideoFrame oferuje metody do:

Odczytywania danych pikseli: Właśnie tutaj wkraczają płaszczyzny.
Kopiowania klatek: Tworzenia nowych obiektów VideoFrame z istniejących.
Zamykania klatek: Zwalniania zasobów bazowych przechowywanych przez klatkę.

Obiekt VideoFrame jest tworzony podczas procesu dekodowania, zazwyczaj przez VideoDecoder, lub ręcznie podczas tworzenia niestandardowej klatki.

Czym są płaszczyzny VideoFrame?

Dane pikseli obiektu VideoFrame są często zorganizowane w wiele płaszczyzn, zwłaszcza w formatach takich jak YUV. Każda płaszczyzna reprezentuje inny składnik obrazu. Na przykład w formacie YUV420 istnieją trzy płaszczyzny:

Y (Luma): Reprezentuje jasność (luminancję) obrazu. Ta płaszczyzna zawiera informacje o skali szarości.
U (Cb): Reprezentuje składową chrominancji różnicy niebieskiego.
V (Cr): Reprezentuje składową chrominancji różnicy czerwonego.

Formaty RGB, choć pozornie prostsze, w niektórych przypadkach również mogą wykorzystywać wiele płaszczyzn. Liczba płaszczyzn i ich znaczenie zależy całkowicie od formatu VideoPixelFormat obiektu VideoFrame.

Zaletą korzystania z płaszczyzn jest to, że umożliwia to efektywny dostęp i manipulację poszczególnymi składowymi koloru. Na przykład, możesz chcieć dostosować tylko luminancję (płaszczyzna Y) bez wpływu na kolor (płaszczyzny U i V).

Dostęp do płaszczyzn VideoFrame: API

API VideoFrame udostępnia następujące metody dostępu do danych płaszczyzn:

copyTo(destination, options): Kopiuje zawartość VideoFrame do miejsca docelowego, którym może być inny VideoFrame, CanvasImageBitmap lub ArrayBufferView. Obiekt options kontroluje, które płaszczyzny są kopiowane i w jaki sposób. Jest to podstawowy mechanizm dostępu do płaszczyzn.

Obiekt options w metodzie copyTo pozwala określić układ i cel dla danych klatki wideo. Kluczowe właściwości to:

format: Pożądany format pikseli skopiowanych danych. Może być taki sam jak oryginalny VideoFrame lub inny (np. konwersja z YUV na RGB).
codedWidth i codedHeight: Szerokość i wysokość klatki wideo w pikselach.
layout: Tablica obiektów opisująca układ każdej płaszczyzny w pamięci. Każdy obiekt w tablicy określa:

offset: Przesunięcie w bajtach od początku bufora danych do początku danych płaszczyzny.
stride: Liczba bajtów między początkiem każdego wiersza w płaszczyźnie. Jest to kluczowe do obsługi dopełnienia (paddingu).

Spójrzmy na przykład kopiowania klatki VideoFrame w formacie YUV420 do surowego bufora:


async function copyYUV420ToBuffer(videoFrame, buffer) {
  const width = videoFrame.codedWidth;
  const height = videoFrame.codedHeight;

  // YUV420 ma 3 płaszczyzny: Y, U i V
  const yPlaneSize = width * height;
  const uvPlaneSize = width * height / 4;

  const layout = [
    { offset: 0, stride: width }, // Płaszczyzna Y
    { offset: yPlaneSize, stride: width / 2 }, // Płaszczyzna U
    { offset: yPlaneSize + uvPlaneSize, stride: width / 2 } // Płaszczyzna V
  ];

  await videoFrame.copyTo(buffer, {
    format: 'I420',
    codedWidth: width,
    codedHeight: height,
    layout: layout
  });

  videoFrame.close(); // Ważne, aby zwolnić zasoby
}

Wyjaśnienie:

Obliczamy rozmiar każdej płaszczyzny na podstawie width i height. Y ma pełną rozdzielczość, podczas gdy U i V są podpróbkowane (4:2:0).
Tablica layout definiuje układ pamięci. offset określa, gdzie każda płaszczyzna zaczyna się w buforze, a stride określa liczbę bajtów, o które należy przeskoczyć, aby dostać się do następnego wiersza w tej płaszczyźnie.
Opcja format jest ustawiona na 'I420', co jest popularnym formatem YUV420.
Co kluczowe, po skopiowaniu wywoływana jest metoda videoFrame.close(), aby zwolnić zasoby.

Formaty pikseli: Świat możliwości

Zrozumienie formatów pikseli jest niezbędne do pracy z płaszczyznami VideoFrame. VideoPixelFormat definiuje, w jaki sposób informacje o kolorze są zakodowane w klatce wideo. Oto kilka popularnych formatów pikseli, z którymi możesz się spotkać:

I420 (YUV420p): Planarny format YUV, w którym składowe Y, U i V są przechowywane w oddzielnych płaszczyznach. U i V są podpróbkowane o współczynnik 2 zarówno w wymiarze poziomym, jak i pionowym. Jest to bardzo popularny i wydajny format.
NV12 (YUV420sp): Pół-planarny format YUV, w którym Y jest przechowywane w jednej płaszczyźnie, a składowe U i V są przeplatane w drugiej.
RGBA: Składowe Czerwony, Zielony, Niebieski i Alfa są przechowywane w jednej płaszczyźnie, zazwyczaj z 8 bitami na składową (32 bity na piksel). Kolejność składowych może się różnić (np. BGRA).
RGB565: Składowe Czerwony, Zielony i Niebieski są przechowywane w jednej płaszczyźnie z 5 bitami dla Czerwonego, 6 bitami dla Zielonego i 5 bitami dla Niebieskiego (16 bitów na piksel).
GRAYSCALE: Reprezentuje obrazy w skali szarości z jedną wartością luminancji (jasności) dla każdego piksela.

Właściwość VideoFrame.format informuje o formacie pikseli danej klatki. Pamiętaj, aby sprawdzić tę właściwość przed próbą uzyskania dostępu do płaszczyzn. Możesz skonsultować się ze specyfikacją WebCodecs, aby uzyskać pełną listę obsługiwanych formatów.

Praktyczne zastosowania

Dostęp do płaszczyzn VideoFrame otwiera szeroki wachlarz możliwości zaawansowanego przetwarzania wideo w przeglądarce. Oto kilka przykładów:

1. Efekty wideo w czasie rzeczywistym

Możesz stosować efekty wideo w czasie rzeczywistym, manipulując danymi pikseli w VideoFrame. Na przykład, możesz zaimplementować filtr skali szarości, uśredniając składowe R, G i B każdego piksela w klatce RGBA, a następnie ustawiając wszystkie trzy składowe na tę średnią wartość. Możesz również stworzyć efekt sepii lub dostosować jasność i kontrast.


async function applyGrayscale(videoFrame) {
  const width = videoFrame.codedWidth;
  const height = videoFrame.codedHeight;
  const buffer = new ArrayBuffer(width * height * 4); // RGBA
  const rgba = new Uint8ClampedArray(buffer);

  await videoFrame.copyTo(rgba, {
    format: 'RGBA',
    codedWidth: width,
    codedHeight: height
  });

  for (let i = 0; i < rgba.length; i += 4) {
    const r = rgba[i];
    const g = rgba[i + 1];
    const b = rgba[i + 2];

    const gray = (r + g + b) / 3;

    rgba[i] = gray;       // Czerwony
    rgba[i + 1] = gray;   // Zielony
    rgba[i + 2] = gray;   // Niebieski
  }

  // Utwórz nową klatkę VideoFrame ze zmodyfikowanych danych.
  const newFrame = new VideoFrame(rgba, {
    format: 'RGBA',
    codedWidth: width,
    codedHeight: height,
    timestamp: videoFrame.timestamp,
    duration: videoFrame.duration
  });

  videoFrame.close(); // Zwolnij oryginalną klatkę
  return newFrame;
}

2. Zastosowania w widzeniu komputerowym

Płaszczyzny VideoFrame zapewniają bezpośredni dostęp do danych pikseli potrzebnych do zadań z zakresu widzenia komputerowego. Możesz użyć tych danych do implementacji algorytmów wykrywania obiektów, rozpoznawania twarzy, śledzenia ruchu i innych. Możesz wykorzystać WebAssembly dla krytycznych pod względem wydajności fragmentów kodu.

Na przykład, możesz przekonwertować kolorową klatkę VideoFrame na skalę szarości, a następnie zastosować algorytm wykrywania krawędzi (np. operator Sobela) w celu zidentyfikowania krawędzi na obrazie. Może to być wykorzystane jako krok wstępnego przetwarzania do rozpoznawania obiektów.

3. Edycja i kompozycja wideo

Możesz używać płaszczyzn VideoFrame do implementacji funkcji edycji wideo, takich jak przycinanie, skalowanie, obracanie i kompozycja. Manipulując bezpośrednio danymi pikseli, możesz tworzyć niestandardowe przejścia i efekty.

Na przykład, możesz przyciąć VideoFrame, kopiując tylko część danych pikseli do nowej klatki VideoFrame. Musiałbyś odpowiednio dostosować przesunięcia i kroki (stride) w layout.

4. Niestandardowe kodeki i transkodowanie

Chociaż WebCodecs zapewnia wbudowane wsparcie dla popularnych kodeków, takich jak AV1, VP9 i H.264, możesz go również użyć do implementacji niestandardowych kodeków lub potoków transkodowania. Musiałbyś samodzielnie obsłużyć proces kodowania i dekodowania, ale płaszczyzny VideoFrame pozwalają na dostęp i manipulację surowymi danymi pikseli. Może to być przydatne w przypadku niszowych formatów wideo lub specjalistycznych wymagań dotyczących kodowania.

5. Zaawansowana analityka

Dzięki dostępowi do bazowych danych pikseli możesz przeprowadzać dogłębną analizę treści wideo. Obejmuje to zadania takie jak mierzenie średniej jasności sceny, identyfikowanie dominujących kolorów czy wykrywanie zmian w treści sceny. Może to umożliwić tworzenie zaawansowanych aplikacji analitycznych wideo dla bezpieczeństwa, nadzoru lub analizy treści.

Praca z Canvas i WebGL

Chociaż możesz bezpośrednio manipulować danymi pikseli w płaszczyznach VideoFrame, często musisz wyrenderować wynik na ekranie. Interfejs CanvasImageBitmap stanowi pomost między VideoFrame a elementem <canvas>. Możesz utworzyć CanvasImageBitmap z VideoFrame, a następnie narysować go na płótnie za pomocą metody drawImage().


async function renderVideoFrameToCanvas(videoFrame, canvas) {
  const bitmap = await createImageBitmap(videoFrame);
  const ctx = canvas.getContext('2d');
  ctx.drawImage(bitmap, 0, 0, canvas.width, canvas.height);
  bitmap.close(); // Zwolnij zasoby bitmapy
  videoFrame.close(); // Zwolnij zasoby VideoFrame
}

Do bardziej zaawansowanego renderowania możesz użyć WebGL. Możesz przesłać dane pikseli z płaszczyzn VideoFrame do tekstur WebGL, a następnie użyć shaderów do stosowania efektów i transformacji. Pozwala to na wykorzystanie GPU do wysokowydajnego przetwarzania wideo.

Kwestie wydajności

Praca z surowymi danymi pikseli może być intensywna obliczeniowo, dlatego kluczowe jest rozważenie optymalizacji wydajności. Oto kilka wskazówek:

Minimalizuj kopie: Unikaj niepotrzebnego kopiowania danych pikseli. Staraj się wykonywać operacje w miejscu, gdy tylko jest to możliwe.
Używaj WebAssembly: W przypadku krytycznych pod względem wydajności fragmentów kodu rozważ użycie WebAssembly. WebAssembly może zapewnić wydajność zbliżoną do natywnej dla zadań intensywnych obliczeniowo.
Optymalizuj układ pamięci: Wybierz odpowiedni format pikseli i układ pamięci dla swojej aplikacji. Rozważ użycie formatów spakowanych (np. RGBA), jeśli nie musisz często uzyskiwać dostępu do poszczególnych składowych koloru.
Używaj OffscreenCanvas: Do przetwarzania w tle używaj OffscreenCanvas, aby uniknąć blokowania głównego wątku.
Profiluj swój kod: Użyj narzędzi deweloperskich przeglądarki, aby profilować swój kod i identyfikować wąskie gardła wydajności.

Kompatybilność z przeglądarkami

WebCodecs i API VideoFrame są obsługiwane w większości nowoczesnych przeglądarek, w tym w Chrome, Firefox i Safari. Jednak poziom wsparcia może się różnić w zależności od wersji przeglądarki i systemu operacyjnego. Sprawdź najnowsze tabele kompatybilności przeglądarek na stronach takich jak MDN Web Docs, aby upewnić się, że funkcje, których używasz, są obsługiwane w Twoich docelowych przeglądarkach. W celu zapewnienia kompatybilności między przeglądarkami zalecane jest wykrywanie funkcji (feature detection).

Częste pułapki i rozwiązywanie problemów

Oto kilka częstych pułapek, których należy unikać podczas pracy z płaszczyznami VideoFrame:

Nieprawidłowy układ: Upewnij się, że tablica layout dokładnie opisuje układ pamięci danych pikseli. Nieprawidłowe przesunięcia lub kroki (stride) mogą prowadzić do uszkodzonych obrazów.
Niedopasowane formaty pikseli: Upewnij się, że format pikseli, który określasz w metodzie copyTo, odpowiada rzeczywistemu formatowi VideoFrame.
Wycieki pamięci: Zawsze zamykaj obiekty VideoFrame i CanvasImageBitmap po zakończeniu pracy z nimi, aby zwolnić bazowe zasoby. Niezastosowanie się do tego może prowadzić do wycieków pamięci.
Operacje asynchroniczne: Pamiętaj, że copyTo jest operacją asynchroniczną. Użyj await, aby upewnić się, że operacja kopiowania zakończy się, zanim uzyskasz dostęp do danych pikseli.
Ograniczenia bezpieczeństwa: Bądź świadomy ograniczeń bezpieczeństwa, które mogą obowiązywać podczas uzyskiwania dostępu do danych pikseli z filmów pochodzących z innych domen (cross-origin).

Przykład: Konwersja YUV na RGB

Rozważmy bardziej złożony przykład: konwersję klatki VideoFrame w formacie YUV420 na klatkę VideoFrame w formacie RGB. Polega to na odczytaniu płaszczyzn Y, U i V, przekonwertowaniu ich na wartości RGB, a następnie utworzeniu nowej klatki VideoFrame w formacie RGB.

Tę konwersję można zaimplementować za pomocą następującego wzoru:


R = Y + 1.402 * (Cr - 128)
G = Y - 0.34414 * (Cb - 128) - 0.71414 * (Cr - 128)
B = Y + 1.772 * (Cb - 128)

Oto kod:


async function convertYUV420ToRGBA(videoFrame) {
  const width = videoFrame.codedWidth;
  const height = videoFrame.codedHeight;

  const yPlaneSize = width * height;
  const uvPlaneSize = width * height / 4;

  const yuvBuffer = new ArrayBuffer(yPlaneSize + 2 * uvPlaneSize);
  const yuvPlanes = new Uint8ClampedArray(yuvBuffer);

  const layout = [
    { offset: 0, stride: width }, // Płaszczyzna Y
    { offset: yPlaneSize, stride: width / 2 }, // Płaszczyzna U
    { offset: yPlaneSize + uvPlaneSize, stride: width / 2 } // Płaszczyzna V
  ];

  await videoFrame.copyTo(yuvPlanes, {
    format: 'I420',
    codedWidth: width,
    codedHeight: height,
    layout: layout
  });

  const rgbaBuffer = new ArrayBuffer(width * height * 4);
  const rgba = new Uint8ClampedArray(rgbaBuffer);

  for (let y = 0; y < height; y++) {
    for (let x = 0; x < width; x++) {
      const yIndex = y * width + x;
      const uIndex = Math.floor(y / 2) * (width / 2) + Math.floor(x / 2) + yPlaneSize;
      const vIndex = Math.floor(y / 2) * (width / 2) + Math.floor(x / 2) + yPlaneSize + uvPlaneSize;

      const Y = yuvPlanes[yIndex];
      const U = yuvPlanes[uIndex] - 128;
      const V = yuvPlanes[vIndex] - 128;

      let R = Y + 1.402 * V;
      let G = Y - 0.34414 * U - 0.71414 * V;
      let B = Y + 1.772 * U;

      R = Math.max(0, Math.min(255, R));
      G = Math.max(0, Math.min(255, G));
      B = Math.max(0, Math.min(255, B));

      const rgbaIndex = y * width * 4 + x * 4;
      rgba[rgbaIndex] = R;
      rgba[rgbaIndex + 1] = G;
      rgba[rgbaIndex + 2] = B;
      rgba[rgbaIndex + 3] = 255; // Alfa
    }
  }

  const newFrame = new VideoFrame(rgba, {
    format: 'RGBA',
    codedWidth: width,
    codedHeight: height,
    timestamp: videoFrame.timestamp,
    duration: videoFrame.duration
  });

  videoFrame.close(); // Zwolnij oryginalną klatkę
  return newFrame;
}

Ten przykład demonstruje moc i złożoność pracy z płaszczyznami VideoFrame. Wymaga dobrego zrozumienia formatów pikseli, układu pamięci i konwersji przestrzeni kolorów.

Wnioski

API płaszczyzn VideoFrame w WebCodecs odblokowuje nowy poziom kontroli nad przetwarzaniem wideo w przeglądarce. Rozumiejąc, jak uzyskać dostęp i manipulować danymi pikseli bezpośrednio, możesz tworzyć zaawansowane aplikacje do efektów wideo w czasie rzeczywistym, widzenia komputerowego, edycji wideo i nie tylko. Chociaż praca z płaszczyznami VideoFrame może być wyzwaniem, potencjalne korzyści są znaczne. W miarę ewolucji WebCodecs, bez wątpienia stanie się on niezbędnym narzędziem dla programistów internetowych pracujących z mediami.

Zachęcamy do eksperymentowania z API płaszczyzn VideoFrame i odkrywania jego możliwości. Rozumiejąc podstawowe zasady i stosując najlepsze praktyki, możesz tworzyć innowacyjne i wydajne aplikacje wideo, które przesuwają granice tego, co jest możliwe w przeglądarce.

Dalsza nauka

MDN Web Docs o WebCodecs
Specyfikacja WebCodecs
Przykładowe repozytoria kodu WebCodecs na GitHub.